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摘 要 自 闭 症 谱系 障碍 (Autistic Spectrum Disorders, ASD) 的 症状 旱 在 机 幼儿 期 就 会 显现 ， 

越 早 发 现 ， 越 时 干预， 治疗 效果 越 好 。 传 统 自 闭 症 早期 得 查 与 诊断 在 评估 方法 、 流 程 上 存在 

AR, 无 法 满足 大 规模 筛 查 和 诊断 需求 。 随 着 人 工 智能 技术 的 快速 发 展 ， 使 用 智能 化 方法 进 
pe AT AEP HAMMER ASD UE YEA RAT A. 近 十 年 间 , 国内 外 对 自 闭 症 智能 化 识别 
: 方法 的 探索 在 经 典 任务 行为 、 面 部 表情 和 情绪 、 眼 动 、 脑 影像 、 运 动 控制 和 运动 模式 、 多 模 
态 六 个 领域 积累 了 丰富 的 研究 成 果 。 未 来 研究 应 围绕 构建 国内 自 闭 症 早期 智能 医学 筛 查 与 
诊断 体系 , 开发 针对 机 幼儿 患者 的 篇 查 工具 , 构建 融合 多 模 态 数 据 的 自 闭 症 婴 幼儿 智能 化 识 
别 模型 ， 建 立 结 合 脑 影像 技术 的 自 闭 症 精 细 化 诊断 方法 等 方面 来 开展 。 


T 


关键 词 白 闭 症 谱系 障碍 ， 自 闭 症 早期 第 查 与 诊断 ， 自 闭 症 智能 化 识别 ， 人 工 智能 ， 多 模 态 
数据 


根据 美国 精神 医学 学 会 出 版 的 第 五 版 精神 障碍 诊断 和 统计 手册 (the Diagnostic and 
Statistical Manual of Mental Disorders - 5th edition, DSM-5)， 自 闭 症 谱系 障碍 (Autism spectrum 
disorder, ASD) 也 被 称 为 孤独 症 ， 被 定义 为 一 种 由 神经 系统 发 育 失调 导致 的 广泛 发 育 障碍 疾 
病 (Hodges et al., 2020)， 以 社交 (沟通 ) 障碍 和 重复 刻板 的 行为 及 兴趣 为 主要 临床 表现 ， 多 


见于 儿童 。 


据 世 界 卫生 组 织 报道 的 2019 年 流行 病 学 调查 估计 ， 全 世界 每 160 名 儿童 就 有 1450€ XE 
自 闭 症 ， 呈 逐年 上 升 的 趋势 。 美 国 疾病 控制 与 预防 中 心 报告 ，2016 年 美国 的 自 闭 症 发 病 率 
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为 1/68, Z 2020 年 美国 的 自 闭 症 发 病 率 已 经 达到 1/59(Maenner et al., 2020). ÆHF E, ZIR 


于 起 步 晚 和 专业 诊断 人 员 的 稀缺 ， 尚 无 权威 的 儿童 自 闭 症 流行 病 学 数据 。2014 年 首次 发 布 
的 《中 国 自 闭 症 儿 童 发 展 状况 报告 》 提 到 中 国 儿童 自 闭 症 患 病 率 约 为 1%, 2020 年 对 中 国 


6-12 岁 儿 童 自 闭 症 流行 病 学 的 首次 全 国 性 评估 研究 最 示 , 自 闭 症 


2020)。 根 据 《 中 国 孤 独 症 ( 自 闭 症 ) 教 育 康复 行业 发 展 状况 报告 HI》 推算 ， 我 国 自 闭 症 患 者 


患 病 率 为 0.70%(Zhou et al., 


超过 1000 万 ， 其 中 0~12 岁 患者 超过 200 万 ， 以 每 年 近 20 万 的 速度 增长 。 可 见 ， 过 去 被 视 


A 


J 


为 罕见 症 的 自 闭 症 ， 目 前 已 经 位 居 我 国 幼儿 残疾 发 病 率 第 二 位 ， 


[ 


仅 次 于 智力 障碍 。 


自 闭 症 难以 治愈 、 伴 随 终生 , 不 仅 给 患者 个 人 造成 痛苦 ， 给 家 庭 和 社会 带 来 的 负担 也 逐 


Wr si. 2015 F, 美国 根据 自 闭 症 患 病 率 发 布 了 自 闭 症 社会 经 济 投入 估算 报告 , 报告 指出 ， 


自 闭 症 引发 的 医疗 卫生 成 本 、 非 医疗 卫生 成 本 和 生产 力 合计 全 国 


GDP 的 0.994%~2.009%, 


预计 到 2025 年 ， 将 上 升 至 0.982%~3.6%(Liu et al., 2015)。 我 国有 调查 表明 ， 自 闭 症 儿 童 的 


抚养 成 本 (19582.4 元 ) 明 显 高 于 智力 障碍 儿童 (6391 元 ) 与 肢体 残疾 儿童 (16410 元 )(Dawson et 
al.,2018)。 可 见 高 发 的 自 闭 症 对 社会 造成 了 极 大 的 负担 ， 急 需 科 学 方法 介入 缓解 其 症状 ， 提 


高 个 人 生活 能 力 ， 降 低 家 庭 和 社会 负担 。 


自 闭 症 越 早 发现 ， 越 早 干预 ， 预 后 效果 越 好 (Matson et al., 2008)。 尤 其 婴 幼 儿 的 神经 系 
统 可 塑性 较 高 , 给 予 及 时 、 适 当 的 早期 干预 可 以 提高 患者 的 适应 能 力 和 认 知 能 力 ( 徐 云 , 杨 健 


2014)。 但 是 ， 父 母 往往 在 患 儿 2~3 岁 时 才能 发 现 明 显 的 发 育 异 常 和 行为 表现 ， 患 儿 从 半 岁 
到 2 岁 间 的 轻微 甚至 是 明显 的 异常 往往 因 父 母 的 经 验 不 足 而 被 忽略 。 此 外 , 上 自 闭 症 的 诊断 主 
要 依据 医生 的 经 验 ， 从 父母 发 现 儿 童 异 常 再 到 确诊 又 耗费 很 长 的 时 间 缺 乏 便捷 和 客观 有 效 
的 诊断 手段 。 因 此 ,开展 针对 婴 幼 儿 的 大 规模 自 闭 症 早期 无 感 得 查 、 发 现 风险 案例 后 及 早 进 
入 诊断 流程 是 非常 必要 的 。 近 十 年 ， 计 算 机 视觉 技术 、 语 音 技术 、 深 度 学 习 等 人 工 智能 和 大 


数据 挖掘 技术 已 被 有 效应 用 于 心理 健康 测评 、 自 动 化 医疗 诊断 、; 


庆 病 干预 和 康复 领域 ， 为 婴 


幼儿 自 闭 症 的 得 查 和 诊断 带 来 了 取得 重大 突破 的 可 能 性 。 将 人 了 


[智能 技术 用 于 自 闭 证 自动 


化 、 精 细 化 得 查 诊断 有 助 于 降低 筛 查 门槛 , 在 家 庭 或 社区 就 可 以 实现 大 规模 低龄 婴 幼 儿 群 体 
KERMA, 提前 做 好 疾病 预警 和 加 速 干预 流程 。 本 文 首 先 回顾 自 闭 症 婴 幼 儿 的 传统 得 查 与 
诊断 工具 ， 然 后 对 近 十 年 自 闭 症 婴 幼 儿 (0~3 岁 ) 智 能 化 识别 的 研究 进展 进行 分 类 梳理 。 其 他 
年 龄 段 的 自 闭 症 儿 童 和 青少年 的 新 型 智能 化 识别 研究 也 进行 综述 ， 这 些 研究 所 使 用 的 数据 


采集 手段 和 智能 化 识别 技术 对 自 闭 症 婴 幼 儿 的 智能 化 识别 上 共有 较 高 的 启发 和 借鉴 意义 。 最 


后 , 本 文 探讨 了 尚 待 解决 的 问题 和 未 来 的 研究 方向 ,为 建立 我 国人 工 智能 辅助 的 自 闲 症 早期 
得 查 与 诊断 体系 提供 新 思路 。 


2. 传统 的 自 闭 症 筛 查 与 诊断 方法 


自 闭 症 最 早 的 症状 出 现在 生命 的 前 一 两 年 (Matson & Goldin, 2014)，50% 的 父母 报告 患 


儿 在 2 岁 时 表现 出 症状 ,90% 的 父母 报告 患 儿 在 3 岁 时 表现 出 明显 的 症状 (Matson et al., 2008), 


而 诊断 的 年 龄 通常 为 3 (Gilmore et al., 2018; Pierce et al., 2019)。 自 闭 症 患 儿 一 旦 错失 最 佳 
干预 时 期 ,后续 治疗 手段 对 康复 效果 将 大 打折 扣 。 因 此 ,很 有 必要 尽早 诊断 和 干预 治疗 。 近 
年 来 , 国内 外 学 者 均 提 倡 自 闭 症 的 早期 第 查 ， 即 对 18-24 个 月 的 幼儿 进行 初级 第 查 , 一 旦 发 
现 可 疑 症 状 ， 即 刻 进 入 重点 筛 查 。 若 筛 查 结果 显示 存在 风险 ， 则 需 转 入 早期 诊断 模式 ， 尽 早 
进行 干预 以 获得 最 佳 康复 效果 (Hyman et al., 2020)。 可 以 说 ， 早 期 筛 查 是 早期 诊断 的 基础 ， 
早期 诊断 是 早期 干预 的 前 提 。 


传统 的 自 闭 症 早 期 筛 查 方 法 主要 分 为 基于 量 表 形式 的 抚养 者 报告 或 专业 观察 和 基于 游 
戏 任务 的 观察 检查 表 两 种 形式 。 测 评 工具 最 早 可 适用 于 患 儿 6 个 月 ， 且 年 龄 跨度 通常 至 少 6 
个 月 ( 见 表 D. 28 HB —2R 95x LAA ZL BITE fff 442 (Checklist for Autism in Toddlers, 


CHAT). CHAT 4E PER (M-CHAT). J 3E TE A Ré Bi fg on x M 4 (Pervasive Developmental 


Disorder Screening Test, PDDST), 自 闭 症 特 质 早 期 得 查 表 (the Early Screening for Autistic Traits, 
基层 保健 场所 ， 大 多 由 抚养 者 报告 即 可 完成 。 其 中 ，CHAT 是 经 过 最 严格 
的 研究 和 验证 、 适 用 于 贾 幼儿 的 自 闭 证 检测 工具 ( 尤 娜 ， 杨 广 学 ,2006)。 常 用 的 二 级 筛 查 工具 
有 自 闭 症 行为 核查 表 (Autism Behavior Checklist, ABC)， 儿 童 自 闭 症 特质 的 婴 幼 儿 筛 查 表 


ESAT)“, EMH] 


(Baby and Infant Screen for Children with Autism Traits, BISCUIT), 2 4 JL3& El BITAE $5326 0] Jy 


(Screening Tool for Autism in Two-Year-Olds, STAT), 2% JL Á BITE WSS St K (the Autism 


Observation Scale for Infants, AOSD&&., — 2g tx — xus BALE, Hz MEA ROLES UI 


自 闭 症 诊断 的 主要 依据 是 美国 精神 学 会 (American Psychiatri Association, APA) 精 神 障 碍 


诊断 和 统计 手册 第 五 版 (DSM-5)， 常 用 的 诊断 工具 是 被 称 为 “ 金 标 准 ” 的 自 闭 症 谱系 障碍 诊 


断 观 察 表 第 二 版 (Autism Diagnostic Observation Schedule, Second Edition, ADOS-2) 和 自 闭 症 


诊断 访谈 量 表 - 修 订 版 (Autism Diagnostic Interview -Revised, ADI-R)(Akshoomoff et al., 2006; 
Lord etal., 1994)。 前 者 是 在 标准 化 活动 情境 下 对 婴 幼 儿 直 接 进 行 观察 ， 后 者 是 对 抚养 者 的 半 
结构 化 访谈 ， 两 者 均 由 经 过 培训 的 专科 医生 作出 评估 。 


K 1 ASD E HH dos HR 


适用 范围 
研究 者 工具 名 称 缩写 形式 
(单位 : HO 
Checklist for Autism in 父母 报告 
Baron-Cohen 等 (1992) CHAT 18~24 
Toddlers 专业 观察 
Modified Checklist for 父母 报告 
Robins 等 (2001) M-CHAT 16~30 
Autism in Toddlers 专业 观察 


Pervasive Developmental 
Seigel (2004) PDDST-II 12~48 父母 报告 
Disorders Screening Test-II 


the Early Screening for 父母 报告 
Dietz 等 (2006) ME ESAT 14-15 
Autistic Traits 临床 观察 
Reznick 等 (2007) the First Year Inventory FYI 9-12 父母 报告 
Krug 等 (1980) Autism Behavior Checklist ABC »18 父母 报告 
O " " Childhood Autism Rating CARS 父母 报告 
p Schopler 等 (2010) > 
~ prer or Scale 专业 观察 


(^ ) Baby and Infant Screen for 
v Matson 等 (2007) BISCUIT 17~37 父母 报告 
Children with Autism Traits 


Screening Tool for Autism 基于 互动 项 目 
Stone 等 (2000) STAT 24~36 
in Two-Year-Olds 的 观察 
" the Autism Observation 基于 半 结 构 化 游戏 
Bryson 等 (2000) AOSI 6~18 uu 
Scale for Infant 活动 的 观察 
= Autism Detection in Early 基于 游戏 项 目 
Young (2007) ADEC 12-36 
Childhood 的 观察 


部 分 传统 的 自 闭 症 早期 筛 查 与 诊断 工具 得 到 广泛 认可 ， 但 在 评估 方式 和 使 用 效率 上 存 
在 局 限 性 ， 无 法 满足 大 规模 的 科 查 和 诊断 需求 ， 主 要 原因 有 : 1) 自 闭 症 早期 症状 及 风险 信 
号 需要 依赖 专科 医生 的 评 断 ， 对 观察 者 有 专业 性 要 求 (Taylor et al., 2017)。 评 估 者 的 专业 水 
平 、 机 构 的 医疗 资源 、 文 化 背景 差异 均 会 影响 自 闭 症 评定 结果 的 信 度 和 效 度 (de Belen et al., 
2020). 20 自 闭 症 的 确诊 需要 经 历 抚养 者 判断 、 医 生 访 谈 、 临 床 观察 和 评估 等 ， 过 程 耗 时 且 
tH i en (Wiggins etal.,2006)。3) 自 闭 症 症 状 表 征 非常 广泛 ， 部 分 临床 症状 在 2、3 岁 前 并 
无 稳定 表现 ( 陈 顺 森 等 ,2011)。 此 外 ， 受 环境 、 经 济 因 素 等 限制 ， 医 生 仅 能 基于 有 限 的 项 目 
做 出 诊断 , 无 法 对 患 儿 在 自然 状态 下 的 行为 展开 长 期 观察 ， 在 这 种 情况 下 ,对 症状 的 评估 往 


D 


往 是 不 充分 的 。 ALE, H BU SR ROT IE aE HH PT APE, 在 保证 结果 达到 一 定 准确 度 的 前 
提 下 简化 自 半 症 的 得 查 与 诊断 流程 ， 缩 减 评估 所 需 的 时 间 与 人 力 成 本 。 


目前 ， 人 工 智 能 技术 辅助 的 自动 化 医疗 诊断 领域 发 展 迅速 , 例如 ,依托 计算 机 视觉 的 面 
部 检测 技术 已 实现 超过 30 多 种 疾病 的 症状 识别 或 预 诊断 ， 其 中 包括 多 种 精神 类 疾病 ， 如 注 
意 缺 陷 与 多 动 障碍 和 抑郁 (Thevenot et al., 2017) 等 。 应 用 智能 化 手段 识别 自 闭 症 婴 幼儿 的 优 
SET: D 可 获取 自然 的 、 多 维度 的 、 多 模 态 的 行为 数据 进行 综合 分 析 ， 保 证 评估 结果 的 
有 效 性 和 客观 性 ， 提 供 可 靠 的 预 诊断 信息 ， 辅 助 医生 的 临床 诊断 ，2) 计算 机 视觉 技术 能 捕 
捉 肉 眼 无 法 观察 和 量化 的 自 闭 症 婴 幼儿 的 的 细微 动作 ， 有 效 识别 异常 行为 或 发 现 新 的 自 闭 
症 早期 风险 标志 ， 相 比 人 工 筛 查 和 诊断 的 成 本 和 侵入 性 低 ， 可 应 用 于 家 庭 或 社区 医院 环境 。 


3. 自 闭 症 早期 患者 的 智能 化 识别 技术 


尽管 研究 者 已 发 现 诸多 自 闭 症 的 核心 症状 和 早期 风险 标志 , 但 低龄 幼儿 很 难 确诊 , E 
在 于 自 闭 症 谱系 障碍 在 不 同 亚 型 、 有 具体 症状 和 严重 程度 上 表现 出 较 大 差异 。 并 且 ， 自 闭 症 曙 
幼儿 的 行为 表现 通常 伴随 早期 发 育 特 征 (Vyas et al., 2019)， 同 时 依赖 非 自 闭 症 的 影响 因素 ， 
例如 认 知 功能 和 年 龄 等 (Li et aL, 2019)。 然 而 ， 依 靠 抚 养 者 报告 早期 症状 易 存 在 回忆 偏差 。 
临床 医生 的 观察 有 限 ， 需 要 患 儿 了 予以 配合 ， 存 在 取样 偏差 。 如 果 能 汇总 自 闭 症 婴 幼 儿 的 大 量 
行为 ， 特 别 是 自然 状态 下 的 日 常 行为 ， 使 用 更 为 客观 的 方法 综合 患 儿 的 多 方 信息 作出 评估 
将 极 大 提高 得 查 与 诊断 的 准确 性 和 可 靠 性 。 


yE 


= 


pey 


计算 机 视觉 、 智 能 传感器 、 机 器 学 习 、 深 度 学 习 等 人 工 智 能 技术 已 逐渐 成 功用 于 自 闭 症 
的 早期 预警 (Hazlett et al., 2017) 和 机 器 辅助 治疗 (Zheng et al., 2015)。 同 时 ， 自 闭 症 的 诊断 和 
治疗 领域 每 天 都 产生 大 量 数据 , 基础 数据 的 积累 量 已 达到 一 定 规模 , 合理 使 用 历史 数据 可 有 
效 提高 自 闭 症 患 儿 的 诊疗 效率 ( 座 梦 怡 等 , 2021)。 本 文 根 据 系统 评价 和 元 分 析 (PRISMA) 
指南 (Moher et al., 2009)， 分 别 对 Web of Science, PubMed. IEEE Xplore. ProQuest 数据 库 中 
BAF 2010-2020 年 间 的 文献 以 关键 字 一 一 “ 自 闭 症 谱系 障碍 ”(“ 自 闭 症 ”)〉 和 “机 器 学 
习 ”( “深度 学 习 ”，“ 计 算 机 视觉 ”，“ 情 感 计 算 ”) 为 主题 词 进 行 搜 索 ， 去 除 重复 项 后 
初步 检索 到 741 篇 文献 。 结合 “ 自 闭 症 早期 患者 的 智能 化 识别 ”的 研究 主题 ,对 所 有 文献 按 
固定 标准 进行 筛选 ， 包 括 : D 关注 人 类 自 闭 症 ， 剔 除 动物 类 研究 ; 20 主题 集中 在 智能 化 技 
术 在 自 闭 症 得 查 、 诊 断 中 的 应 用 ， 而 非 以 和 干预、 治疗 为 主 的 情境 ，3) REAR EW 
标记 物 等 生物 、 医 学 类 的 研究 ，4) 对 象 以 婴 幼儿 、 儿 童 、 青 少年 患者 为 主 ， 自 闭 症 成 年 及 
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老年 患者 非特 殊 原 因 不 予 考虑 ，5) 研究 目的 是 自 闭 症 检测 或 自 闭 症 经 典 测评 任务 中 的 风险 
行为 ， 而 非 衍生 行为 《如 ， 自 闭 症 患者 的 自 伤 行为 、 睡 眠 等 ) 。 最 终 获 得 576 篇 目标 文献 。 
从 上 述 文献 发 现 , 领域 在 十 年 间 对 自 闭 症 自 动 化 识别 的 探索 基于 不 同类 型 的 数据 展开 , 可 依 
此 归纳 为 六 个 研究 子 领域 : 1) 基于 经 典 任务 行为 数据 的 识别 (114 篇 ) s 2) 基于 面部 表情 
和 情绪 数据 的 识别 〈144 篇 ) ; 3) 基于 眼 动 数据 的 识别 〈18 篇 ) ; 4) 基于 脑 影像 数据 的 识 
别 (169 篇 ) ; 5) 基于 运动 控制 和 运动 模式 数据 的 识别 C58 篇 ); 6) 基于 多 模 态 数据 的 识 
别 〈73 篇 ) 。 本 文 根 据 文献 引用 率 排 序 法 和 滚雪球 法 选择 重点 文献 并 进行 文献 扩充 ， 最 终 
结合 80 篇 重点 文献 进行 综述 ， 下 文 将 从 这 六 个 领域 逐一 展开 介 
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“ 自 闭 症 婴 幼儿 的 智能 化 识别 ” 
关键 词 检索 
时 间 范围 数据 库 adio 自 闭 症 ) 

2010.1.1 - 2020.12.30 Web of Science 机 器 学 习 
PubMed 深度 学 习 
IEEE Xplore 情感 计算 

ProQuest 计算 机 视觉 
第 查 标准 

1. 剔除 动物 类 研究 


2. 剔除 干预 、 治 疗 研 究 

3. 剔除 基因 、 人 生物 类 研究 

4. 剔除 自 闭 症 成 年 及 老年 研究 

5. 剔除 对 自 闭 症 衍生 行为 的 研究 


文献 第 查 


去 除 重复 项 
拟定 标准 评估 文献 


576 篇 归纳 研究 领域 


1. 基于 经 典 任务 行为 数据 的 识别 
2. 基于 面部 表情 和 情绪 数据 的 识别 


文献 扩充 3. 基于 眼 动 数据 的 识别 
引用 率 排序 5 FEREENA 
滚雪球 法 6. 基于 多 模 态 数 据 的 识别 
80 篇 
确定 重点 文献 库 


图 1 文献 调研 流程 图 


3.1 基于 经 典 任务 行为 数据 的 自动 识别 


自 财 症 早期 诊断 的 第 一 步 就 是 对 早期 潜在 危险 信号 的 筛选 、 评 估 和 处 理 ( 陈 顺 森 等 ， 
2011)。 长 期 以 来 ， 自 闭 症 的 早期 异常 行为 在 回顾 性 研究 (父母 报告 、 家 庭 录像 分 析 ) 和 前 瞻 性 
研究 、 早 期 得 查 量 表 、 临 床 诊断 中 得 到 充分 研究 和 验证 ， 积 累 了 较 多 经 典 的 临床 评估 任务 及 
相应 的 行为 观测 指标 ， 如 AOSI 中 的 叫 名 反应 任务 、 视 觉 妃 踪 任务 、 注 意 脱离 任务 等 。 近 年 
来 , 研究 者 针对 自 闭 症 早期 经 典 任务 中 的 异常 行为 提出 自动 化 检测 模型 。 研究 者 一 般 采 用 非 
接触 式 视觉 系统 及 传感器 技术 (电子 设备 前 置 摄像 , RGB 摄像 机 , Kinect 3D 体感 摄影 机 等 ) 
采集 患 儿 在 任务 中 的 面部 表情 变化 、 头 部 运动 、 有 体 运动 、 声 学 等 多 维度 行为 数据 ， 提 出 基 
于 任务 的 异常 行为 检测 算法 和 自动 化 评估 模型 ， 以 替代 传统 的 人 工 观察 与 评估 , 提高 得 查 效 
率 。 下 文 以 叫 名 反应 任务 、 视 觉 注 意 力 任务 为 例 ， 介 绍 行为 数据 采集 技术 ， 行 为 数据 采集 过 


程 、 异 常 行为 检测 算法 与 预测 模型 。 


^T] 44 JW." (Response to name, RTN) 是 自 闲 症 早期 得 查 量 表 和 临床 诊断 中 最 常 出 现 的 
经 典 任务 之 一 。 婴 儿 自 4-6 个 月 开始 就 对 自己 的 名 字 有 反应 , 在 听 到 自己 的 名 字 时 会 有 选择 
地 转动 头 部 ， 表 明 他 们 已 领会 到 名 字 有 打招呼 的 含义 Imafuku et al.,2014)。 叫 名 反应 需要 专 
业 人 员 现 场 观察 记录 或 事后 注释 ,根据 计 分 手册 或 诊断 标准 进行 评估 。 事实 上 ， 自 闭 症 患 儿 
在 叫 名 反应 中 的 非典 型 (atypical) 行 为 可 量化 为 可 计算 的 观测 指标 ， 如 患 儿 的 眼睛 注视 、 头 部 
姿态 变化 、 名 字 呼 叫 后 的 反应 时 长 等 等 。 例如 ，Bidwell(2014) 等 人 分 析 了 公开 标注 的 多 模 态 
二 元 行为 数据 集 (Multimodal Dyadic Behavior Dataset, MMDB) 中 的 50 组 15~30 月 龄 的 幼 
儿 参 与 “ 叫 名 反应 ”的 音 视频 ， 其 通过 天 花 板 高 架 式 Kinect、 前 置 摄像 机 与 追踪 器 估计 幼儿 
头 部 姿态 变化 。 研 究 中 ， 幼 儿 的 头 部 偏 航 (yaw) 夹 角 和 听 到 姓名 后 的 反应 潜伏 时 长 作为 预测 
幼儿 对 社交 刺激 (呼唤 姓名 ) 积 极 ( 消 极 ) 反 应 的 行为 指标 , 不 同 分 类 器 的 预测 效果 略 有 差别 ， 
最 高 精确 率 (precision〉 和 召回 率 (recall? 达到 89.4% 和 83.3%。Wang 等 人 (2019) 对 “ 叫 名 
反应 ”任务 构建 了 包含 实验 流程 、 数 据 采 集 和 自动 评估 的 自 闭 症 辅助 得 查 系统 ， 有 助 于 缩减 
第 查 的 人 力 成 本 ， 有 望 在 医疗 欠 发 达 地 区 发 挥 作用 。 研究 者 在 实验 环境 搭建 了 由 Kinect 和 2 
个 RGB 摄像 机 组 成 的 多 传感器 系统 ， 可 同时 对 幼儿 (平均 年 龄 2 岁 ) 的 面部 、 注 视 、 姿 态 和 


语音 等 行为 信息 进行 采集 和 集成 ， 且 实现 行人 检测 和 骨骼 点 提取 (Microsoft Kinect SDK)、 面 


部 表情 识别 (Baltrugaitis et al., 2015)、 面 部 标记 点 的 检测 与 追踪 (Baltrusaitis et al., 2013). IRER 


中 心 定 位 (Wang et al., 2018) 8135 AAS iT (Baltrušaitis et al., 2016) 等 。 研 究 者 基于 眼球 中 心 


定位 和 头 部 姿态 估计 算法 ， 使 用 人 有 眼 注视 方向 的 旋转 角度 和 注视 持续 时 间作 为 预测 幼儿 积 
极 ( 消 极 〉 反 应 的 行为 指标 ， 平 均 分 类 准确 率 (accuracy) W 92.7%. 


非典 型 注意 力 的 评估 也 是 最 常见 于 自 闭 症 早期 得 查 与 诊断 工具 的 经 典 任务 之 一 。 目 前 ， 
自 闭 症 幼儿 的 视 音频 、 图 像 等 能 够 自动 识别 多 种 非典 型 的 注意 力 特征 ， 例如， 不 流畅 的 


F 
视觉 追踪 (Zwaigenbaum et al., 2003)、 人 脸面 部 的 注视 频次 低 (Ozonoff et al., 2010)、 注 意 力 分 


离 能 力 弱 (Elsabbagh et al., 2013) 等 。Hashemi 等 人 (2014) 使 用 面部 检测 与 追踪 技术 对 AOSI 中 
两 种 非典 型 视觉 注意 力 任务 进行 自动 评估 ， 分 别 是 : 10 注意 脱离 : 从 两 个 竞争 性 视觉 刺激 
中 分 离 注意 力 并 移动 视线 ;， 2) 视觉 追踪 : 视觉 跟踪 移动 的 物体 横向 穿 过 中 线 。 研 究 者 使 用 
GoPro Hero 运动 摄像 机 记录 了 12 名 5-18 个 月 龄 的 自 闭 症 风 险 婴 儿 的 多 个 实验 试 次 ， 基 于 
偏 航 《〈yaw) 和 俯仰 Cpitch) 的 头 部 姿态 运动 评估 视觉 注意 。 结 果 表明 ， 自 动 评 估 与 专家 的 
评分 者 信和 度 〈Cohen’s Kappa) 为 0.75， 远 高 于 非 专家 评分 〈0.27-0.37) 。Bovery 等 人 (2019) 
开发 了 移动 设备 端的 实验 任务 测量 自 闭 症 幼儿 的 非典 型 注意 力 ， 左 右 屏 分 别 呈 现 社交 与 非 
社交 的 影像 刺激 ， 前 置 摄像 记录 104 名 16-31 个 月 幼儿 观看 刺激 时 的 面部 动态 影像 。 研 究 者 
通过 计算 51 个 面部 标记 点 (Hashemi et al., 2015) E; 3D 标准 人 脸 模 型 (3D canonical face model) 
间 的 旋转 参数 估计 头 部 姿态 (Fischler & Bolles, 1981)， 结 合 头 部 偏 航 〈yaw) 夹 角 和 眼球 虹膜 
位 置 估计 注意 方向 ， 进 而 测量 自 闭 症 幼儿 对 不 同 刺激 的 注意 时 间 、 注 意 偏好 和 注意 转移 。 
Campbell 等 (2019) 采 用 上 述 类 似 的 实验 范式 对 16-31 月 龄 自 闭 症 幼儿 的 非典 型 注意 和 “ 叫 名 
反应 ?进行 自动 评估 。 结 果 表 明 , 叫 名 反应 的 自动 评估 与 专家 评分 具有 较 高 一 致 性 ICC=0.84， 


95%CI0.67-0.91)， 敏 感性 (sensitivity〉 为 96%， 特 异性 〈specificity) 为 3896. 


现 有 研究 集合 了 多 种 自 闭 症 的 经 典 临床 评估 任务 , 开发 了 集 任务 、 数 据 采 集 、 算 法 于 

体 的 移动 端 应 用 程序 ， 形 成 集成 化 、 低 成 本 、 可 扩展 的 自 财 症 自 动 筛 查 工具 ， 应 用 范围 从 实 
验 室 研 究 扩展 至 初级 保健 院 、, 学 校 、 家 庭 等 社会 医疗 场所 ,已 实现 自 闭 症 幼儿 的 非典 型 情绪 、 
社会 参照 、 社 会 性 微笑 、 叫 名 反应 等 社会 互动 行为 的 自动 检测 ， 已 具有 一 定 的 预测 效果 
(Hashemi et al., 2015; Hashemi et al., 2018)。 然 而 ， 目 前 仅 涉 及 较为 简单 的 评估 任务 ， 尚 未 涉 
及 复杂 任务 ， 因 为 幼儿 在 这 类 任务 中 的 反应 模式 更 加 多 元 ， 大 大 增添 了 自动 化 检测 的 难度 。 
例如 , ADOS 中 的 “ 泡 泡 游 戏 ” 是 为 评估 幼儿 和 他 人 “共享 乐趣 ”的 能 力 , 需要 首先 建立 “ 共 
享乐 趣 ” 对 应 的 行为 维度 体系 ， 只 有 同时 结合 幼儿 的 表情 、 眼 神 、 自 发 动作 、 声 音 等 多 模 态 
时 序数 据 进 行 协同 建 模 才 有 可 能 实现 达到 较 好 的 检测 效果 。 


3.2 基于 面部 表情 和 情绪 数据 的 自动 识别 


社交 沟通 障碍 是 自 闭 症 患 儿 区 别 于 典型 发 展 群 体 的 重要 特征 ， 表 现在 社会 情感 互动 和 
非 言语 沟通 两 个 方面 ， 如 受 损 的 面部 表情 模仿 能 力 、 面 部 表情 多 样 性 及 程度 等 ， 是 临床 常用 
的 面部 行为 指标 。 使 用 面部 表情 分 析 技 术 能 够 元 服 人 类 感知 的 局 限 性 , 快速 、 客 观 地 自动 识 
别 自 闭 症 。 


近年 来 , 计算 机 视觉 技术 的 进步 推动 了 人 工 智 能 情绪 识别 的 发 展 , 其 主要 任务 是 基于 面 
部 图 像 或 视频 开发 算法 识别 人 脸 情 绪 标签 ， 如 基本 情绪 分 类 (de Belen et al., 2020)。 研 究 者 尝 
试 构建 用 来 检测 异常 情绪 认 知 和 表达 的 算法 ， 并 将 其 应 用 到 自 闭 症 婴 幼儿 的 自动 化 识别 中 。 
然而 , 受 限 于 自 闭 症 患 者 取样 的 特殊 性 , 样本 规模 普遍 偏 小 , 但 正常 人 群 的 情绪 识别 领域 积 
累 了 较 多 模型 和 公开 数据 集 , 因此 , 一 种 研究 思路 是 先 基于 正常 人 群 数 据 集 的 面部 特征 迁移 
或 调整 已 有 模型 .例如 , Han 等 人 (2018) 基 于 FERET 和 Cohn-Kanade(CK+) 正 常人 脸 数据 集 
抽取 并 比较 了 正常 人 群 和 自 闭 症 儿童 的 面部 表情 特征 差异 , 提出 了 一 种 基于 稀 玻 编码 (Sparse 
coding) 的 特征 迁移 学 习 算法 。 在 自 闭 症 儿 童 与 机 器 人 互动 的 过 程 中 , 实时 采集 面部 数据 并 识 
别 情绪 类 型 ， 平 均 准 确 率 (accuracy) 在 80% 以 上 。 


研究 者 在 实验 室 或 自然 环境 下 采集 婴 幼 儿 静 态 面 部 图 像 或 动态 面部 视频 ， 构 建 自 闭 证 
婴 幼 儿 的 情绪 识别 或 自 闭 症 分 类 模型 ， 已 达到 较为 精准 的 预测 效果 。 例 如 ， 社 会 性 微笑 是 自 
闭 症 早 期 的 重要 风险 标志 ( 毕 小 彬 等 ,2020)， 特 别 是 母 婴 互动 中 婴儿 的 微笑 是 检测 自 闭 症 的 
关键 信号 , 在 临床 和 家 庭 环境 中 自动 识别 婴儿 微笑 有 助 于 提升 早期 筛 查 效率 。 例 如 ,Tang 等 
FT AQ018)3E FEE EZE 34 名 6~24 月 龄 婴儿 ( 自 闭 症 高 风险 11 人 ) 的 面部 视频 数据 集 (RCLA 


&NBH Smile, & 77000 人 工 标 注视 频 帧 ) 训 练 卷 积 神经 网 络 (Convolutional Neural Networks, 


CNN) 自 动 检测 视频 中 的 婴儿 笑容 ,平均 准确 率 (accuracy ) 为 87.16%。Li 等 人 (2019) 发 现 面 
部 表情 、 面 部 动作 单元 、 情绪 唤 醒 度 和 情绪 效 价 是 自 闭 症 分 类 的 重要 面部 特征 。 研究 者 通过 
移动 设备 前 置 摄像 记录 105 名 儿童 观看 视频 时 的 面部 动态 影像 ， 使 用 基于 公开 数据 用 
AffectNet 和 EmotioNet 预 训练 的 CNN 模型 和 时 序 特征 抽取 方法 获得 面部 特征 表示 , 建立 二 
分 类 预测 模型 ， 自 
Shukla 等 人 (2017) 提 出 从 面部 图 像 自动 检测 发 育 障 碍 的 方法 ， 包 括 自 闭 症 谱系 障碍 、 脑 竣 、 
台 儿 酒精 综合 症 、 唐 氏 综合 症 、 智 力 障碍 、 早 衰 等 等 。 研究 者 使 用 微调 的 CNN 模型 一 一 Alex 


Net 对 两 干 余 张 人 脸 图 像 获得 面部 特征 表示 , 使 用 支持 向 量 机 (Support Vector Machine, SVM) 


Am 


AVE BUR E Csensitivity) 和 特异 性 〈specificity) 73 0.76 和 0.69. 


构建 不 同 疾病 的 二 分 类 任务 。 结 果 表 明 ， 自 闭 症 分 类 的 平均 精确 率 Cprecision) A 93.33%, 
且 模 型 对 不 同 疾病 的 分 类 优 于 人 工分 类 〈 非 专家 ) 的 结果 。 


在 对 自 闭 症 患者 面部 情绪 的 分 类 基础 上 ， 男 有 研究 深入 探讨 了 自 闭 症 患者 面部 表情 的 
RENTE. 研究 者 通过 面部 动作 单元 编码 等 方法 检测 、 追 踪 人 眼 无 法 观察 到 的 微观 面部 运动 
特征 , 对 自 闭 症 患者 产生 面部 表情 的 能 力 进行 量化 评 佑 ， 如 检测 个 体 是 否 开始 产生 表情 、 产 


生 特 定 表情 时 面部 各 区 域 和 肌肉 群 的 激活 情况 ， 


这 有 利于 自 闭 症 的 精细 诊断 和 对 点 干预 , 对 


自 闭 症 婴 幼儿 的 智能 化 往 查 及 其 面部 表情 特征 研究 具有 启发 性 。Leo 等 人 (2019) 提 出 对 自 闭 


分 


> 


症 患 者 表达 面部 情绪 的 能 力 进行 计算 分 析 的 方法 , 构建 了 自动 化 评估 框架 , 包括 四 个 算法 模 


autism) 患者 面部 表情 的 细微 动态 特征 进 
使 用 6 个 红外 运动 捕捉 相机 以 每 秒 100 Tii 


法 (multiple scale entropy, MSE) 分 书 


> 


BR: 人 脸 检 测 、 人 脸 特 征 点 检测 与 追踪 、 面 部 动作 单元 强度 估计 、 面 部 表情 分 析 。17 名 自 闭 
症 患者 (6~13 岁 ) 和 10 名 典型 发 展 幼儿 (26~35 
析 材 料 。 结果 表明 , 该 方法 能 够 分 别 较为 准确 地 预测 上 述 两 类 群体 表达 特定 情绪 时 的 专家 
评定 分 数 〈 二 分 类 任务 ) ， 自 闭 症 患 者 情绪 识别 的 精确 率 (precisiom) 和 召回 率 (recalD) 为 0.90 
和 0.85。 此 外 ,使 用 该 评估 方法 还 发 现 自 闭 症 患者 在 表达 快乐 恐惧 和 愤 轻 情绪 时 能 同时 使 
上 面部 和 下 面部 ,而 表达 悲伤 情绪 时 的 表情 主要 集中 在 下 面部 。Guha 等 人 (2016) 使 


月 龄 ) 产 生 四 种 基本 情绪 的 面部 动态 影像 作为 


运动 


ga 


捕捉 技术 (motion capture technique, mocap) 对 9~14 岁 的 高 功能 自 闭 症 (high functioning 


研究， 要求 被 试 模仿 固定 序列 的 面部 情绪 ， 同 时 


绪 时 面部 表情 的 动态 复杂 怕 


的 速度 记录 32 个 面部 标记 点 的 运动 。 多 斥 度 粒 方 
if 个 体面 部 动态 复杂 性 发 现 ， 高 功能 性 自 闭 症 患 者 表达 情 
ERIR, 缺乏 丰富 的 面部 表情 模式 和 变异 性 , 差异 主要 集中 在 眼 部 


[x dk. Ahmed 和 Goodwin(2017) 则 着 眼 于 面部 表情 计算 分 析 在 自 闭 症 患 者 的 计算 机 辅助 教学 


情境 中 的 应 用 , 研究 如 何 通 过 面部 表情 变化 测量 学 习 投 入 水 平 ， 以 达到 辅助 教学 的 目的 。 研 


究 者 基于 自 闭 症 青少年 (平均 年 龄 约 12 风 ) 学 习 过 程 中 计算 机 前 置 摄像 记录 的 面部 反应 视频 ， 


使 用 面部 动作 编码 系统 (Facial Action Coding System, FACS) 对 特定 情绪 引发 的 面部 动作 单元 


进行 编码 ， 以 计算 机 表情 识别 工具 (Computer Expression Recognition Toolbox, CERT) 得 到 视 


频 中 个 体 头 部 朝向 屏幕 的 时 间 比 和 面部 动作 单元 的 激活 状态 作为 监控 学 习 投入 的 行为 和 情 


绪 指 标 。 


情 和 情绪 的 自动 化 识 


自 闭 症 患者 的 面部 情绪 识别 和 面部 表情 特征 一 直 是 自 闭 症 研究 的 热点 。 自 闭 症 面部 表 
别 能 够 解决 面部 人 工 编 码 耗费 时 间 长 , 难以 分 析 大 样本 、 实 时 分 析 的 局 


限 。 目 前 ， 该 领域 的 


究 可 根据 表情 产生 的 类 2 


型 (自发 表情 ， 模 仿 表 情 )、 情 绪 诱 发 刺激 类 型 


(视频 ， 感 官 刺激 ， 社 交互 动 )、 数 据 ( 静 态 面 部 图 像 ， 动 态 面 部 视频 )、 面 部 表情 自动 化 评估 
的 目标 (定性 ， 定 量 ) 划 分 为 不 同 的 子 领域 。 同 时 ， 研 究 成 果 可 用 于 开发 “治疗 机 器 人 ”， 实 
时 、 自 动 识别 自 闭 症 幼儿 的 情绪 并 进行 对 点 干预 ,辅助 临床 医生 “阅读 ” 自 闭 症 儿 童 的 面部 
表情 , 提高 诊疗 的 有 效 性 。 最 后 ,建立 面部 表情 和 情绪 识别 算法 的 第 一 步 通 常 是 对 采集 的 大 
量 面 部 视频 帧 进行 标注 , 而 完全 采用 人 工 标 注 费 时 费力 , 从 众 包 平 台 (crowdsourcing platform) 
的 外 包 标 注 又 往往 会 存在 评分 者 一 致 性 低下 的 问题 。Kalantarian 等 人 (2019) 提 出 了 三 种 自动 
标记 算法 对 儿童 (平均 年 龄 为 8.5. 岁 ) 面 部 表情 视频 帧 进行 六 种 基本 情绪 的 自动 标注 ， 包 括 ; 
大 恶 ， 中 立 ， 惊 奇 ， 害 怕 ， 悦 怒 和 快乐 ， 结 果 表 明 前 四 种 情绪 的 自动 标记 效果 相对 较 好 。 


3.3 基于 有 眼 动 数据 的 自动 识别 


眼神 交流 是 非 言 语 沟 通 的 关键 要 素 ,， 表示 个 体 对 社交 互动 的 兴趣 、 关 注 和 参与 ， 是 识别 
语言 障碍 、 情 感 状态 及 自 闭 症 早 期 风险 标志 的 重要 指标 。 目 前, 已 有 充分 证 据 表 明 自 闭 症 纺 
儿 与 典型 发 展 群体 的 注视 方式 存在 显著 差异 , 如 非典 型 的 凝视 、 眼 神 交流 和 共同 注意 (Chong 


et al., 2017); 对 社交 和 非 社交 图 像 的 偏好 不 同 (Campbell et al., 2014; Chawarska et al., 2013; Shi 


et al., 2015). 


眼 动 追踪 是 测量 社会 性 知觉 和 社会 性 偏好 的 常用 方法 之 一 ， 其 能 够 捕获 眼神 的 运动 轨 
WE, 非常 适合 对 感知 异常 的 自 闭 症 患 儿 进 行 研究 。 传统 的 眼 动 追踪 主要 有 两 种 方式 ,其 一 是 
佩戴 头 戴 式 眼 动 设备 , 低龄 幼儿 需要 较 长 时 间 适 应 ; 其 二 是 视点 追踪 (viewpoint tracking), f 
追踪 的 视线 范围 限制 于 屏幕 , 仅 适用 于 高 度 受 控 的 实验 室 研 究 , 无 法 测量 自 闭 症 患 儿 在 社交 
环境 中 的 注视 行为 (Chong et al., 2017)。 因 此 ， 研 究 者 开始 探索 使 用 非 接触 性 的 眼 动 追踪 技 
术 ， 如 基于 图 像 中 的 人 眼 外 观 (Lu et al., 2014) 或 构建 人 眼 数学 模型 (Li & Li, 2015)， 同 时 对 眼 
动 数 据 中 蕴含 的 心理 因素 进行 分 析 。 例 如 ，Syeda 等 人 (2017) 研 究 了 自 闭 症 患 者 (5~17 岁 ) 在 
处 理 人 脸 情 绪 图 像 时 的 面部 扫描 模式 和 情绪 识别 能 力 。 研 究 者 使 用 安装 于 笔记 本 的 眼 动 仪 
(Tobii EyeX Controller) 采 和 集 自 闭 症 患者 和 典型 发 展 个 体 在 观看 六 种 基本 情绪 的 人 脸 图 像 时 
的 眼 动 数 据 。 研 究 发 现 ， 自 闭 症 患 者 在 扫描 面部 时 较 少 关注 面部 核心 特征 (眼睛 、 鼻 子 、 嘴 
巴 )， 因 而 很 难 正确 感知 他 人 情绪 。Chrysouli 等 人 (2018) 基 于 正常 人 群 和 自 闭 症 患者 的 眼睛 
凝视 影像 数据 集 (MaTHiSiS) 识 别 学 习 者 在 人 机 交互 学 习 情 境 中 的 情绪 状态 , 通过 构建 两 阶段 
的 双流 CNN 模型 (two-stream CNN)， 融 合 眼 部 连续 图 像 帧 间 的 光 流 信息 (opticalflow) 和 静态 


图 像 帧 的 空间 信息 识别 个 体 当 前 是 否 处 于 投入 、 无 聊 或 泪 形 的 情绪 状态 。 近 年 来 , 研究 者 评 


CC 


估 自 闭 症 儿童 与 抚养 者 面对面 互动 状态 下 的 眼神 接触 时 通常 采用 POV(point-of-view) 相 机 采 
集 眼 部 数据 , 即 要 求 成 年 人 佩戴 头 戴 式 摄像 头 记录 儿童 的 注视 行为 。 例如 , Chong 等 人 (2017) 
基于 POV 相机 采集 的 数据 ， 提 出 检测 自 闭 症 儿 童 在 与 抚养 和 人 自然 互动 过 程 中 的 脸 部 朝向 和 
眼神 接触 的 算法 。 他 们 基于 100 名 自 闭 症 儿童 (3~6 岁 ) 和 典型 发 展 幼儿 (18~36 月 龄 ) 的 、 包含 
156 个 互动 片段 、 共 22 小 时 的 影像 数据 集 , 开发 了 一 种 端 到 端的 深度 学 习 框 架 (Pose-Implicit 


CNNO 检测 儿童 的 眼神 接触 ， 结 果 优 于 其 它 模 型 (AlexNet, PEEC, GazeLocking)， 精 确 率 


(precision) 为 0.78， 召 回 率 (recall) 为 0.80. 


传统 方法 收集 自 亲 症 低龄 幼儿 的 眼 动 数据 几乎 不 可 能 在 大 规模 盘查 中 施行 ， 其 一 是 需 
在 高 度 受 控 的 实验 室 环境 中 借助 专业 仪器 测量 ; 其 二 要 求 被 试 长 时 间 持 续 注 视屏 幕 ， 不 适合 
对 低龄 幼儿 进行 测试 ， 因 而 研究 者 很 难 在 自然 社交 互动 中 (如 ， 幼 儿 与 抚养 者 ) 评 估 眼 神 接触 
或 注视 。 而 上 述 非 侵入 性 的 眼 动 测量 技术 将 有 利于 自 闭 症 早期 眼 动 特 征 的 相关 研究 , 如 通过 
摄像 机 记录 幼儿 的 面部 (主要 是 眼睛 ) 和 头 部 姿态 变化 ， 据 此 分 析 幼 儿 注 视 的 位 置 和 凝视 时 长 。 
需 注 意 的 是 , 不 同 于 实验 室 的 标准 化 环境 ,幼儿 在 家 庭 或 保健 院 等 场所 中 采集 的 视频 数据 可 
能 存在 面部 遮挡 、 头 部 位 置 偏 移 的 问题 ， 需 进行 视频 预 处 理 和 校正 等 。 


att 


> 


3.4 基于 脑 影 像 数据 的 自动 识别 


自 闭 症 的 精准 诊断 对 自 闭 症 患 者 的 及 早 干预 和 及 时 治疗 至 关 重 要 。 目 前 国际 上 开展 

大 量 针 对 自 闭 症 精准 诊断 的 研究 ， 力 图 找 出 自 闭 症 的 行为 学 、 遗 传 学 和 影像 学 标志 物 (Hong 
et al., 2020; Lord et al., 2020; Talbott & Miller, 2020; Wolfers et al., 2019)， 同 时 结合 人 工 智 能 
O 技术 ， 实 现 对 自 闭 症 的 客观 诊断 。 然 而 ， 这 些 研究 绝 大 多 数 是 针对 儿童 和 成 人 的 (Dickinson 


et al., 2021)， 针 对 婴 幼 儿 的 自 闭 症 智能 诊断 研究 尚 少 。 


脑 影像 技术 的 发 展 大 大 推进 了 人 类 对 于 自 闭 症 病 理 机 制 的 理解 ， 脑 影像 技术 与 人 工 智 
能 技术 的 结合 为 自 财 症 的 早期 精准 诊断 提供 了 新 的 契机 。 当 前 自 半 症 诊断 难 、 诊 断 准确 率 不 
高 的 主要 原因 在 于 自 闭 症 本 身 的 病理 机 制 存在 异 质 性 ， 而 脑 影 像 技术 在 获取 脑 结构 及 功能 
精细 信息 进而 捕捉 不 同 病 理 亚 型 的 特异 性 特征 方面 具有 很 大 优势 (Emerson et al., 2017)。 因 
而 , 基于 脑 影像 的 自 闭 症 客观 诊断 研究 受到 极 大 关注 。 目 前 广泛 应 用 于 自 闭 症 精细 化 诊断 的 
影像 技术 主要 包括 脑 电 (EEG)、 结 构 磁 共振 成 像 (sMRD 和 功能 磁 共 振 成 像 (MRD。 


结构 磁 共 振 成 像 (sMRD 能 够 捕捉 自 闭 症 婴 纺 儿 细 微 的 脑 结 构 变 异 , 因而 在 自 闭 症 的 早期 
诊断 中 有 和 良好 表现 。Hazlett 等 人 (2017) 在 Nature RMB, 报告 了 他 们 基于 sMRI 进行 自 闭 


证 早期 诊断 的 看 


度 、 皮 层 表 面积 和 脑 体 积 等 特征 ， 
了 81% 的 敏感 性 〈sensitivity) 和 88% 的 特异 虱 


究 : 基于 6-12 月 龄 的 148 个 婴 幼 儿 样 本 的 sMRI 数据 ， 他 们 提取 了 皮层 厚 
结合 深度 学 习 算 法 构建 了 自 闭 症 早期 诊断 模型 , 最终 达 到 
E (specificity) 。 脑 电 (EEG) 的 高 时 间 分 辨 率 便 


于 其 精准 反映 自 闭 症 婴 幼儿 的 脑 功 能 时 空 共 变 模式 的 异常 ， 可 为 自 闭 症 的 早期 诊断 提供 有 


效 特征 。Gabard-Durnam 等 人 (2019) 基 于 171 i] 3~36 月 龄 的 婴 幼 儿 的 纵向 EEG 数据 ， 


EA 
结合 


Logistic 回归 对 自 闭 症 患 者 和 正常 个 体 进行 分 类 (类 别 标签 为 样本 36 月 龄 时 的 诊断 结果 ), WE 


究 发 现 出 生 后 第 一 自 


Ef] EEG 功率 动态 波动 ( 相 较 第 二 、 三 年 ) 对 于 自 闭 症 早期 诊断 最 为 有 效 


(正确 率 达 91%)。 加 利 福 尼 亚 大 学 洛杉矶 分 校 的 Dickinson 等 人 (2021) 基 于 65 例 3 月 龄 样本 
的 EEG 数据 ， 结 合 支持 向 量 回 归 算法 ， 对 样本 在 18 月 龄 时 测 得 的 自 闭 症 行为 评分 进行 预 
Ju, 预测 值 和 真实 值 的 相关 系数 高 达 0.76。 功 能 磁 共 振 成 像 ([MRD 同 时 具备 高 的 时 间 分 辨 率 
(相对 于 正 电子 发 射 断层 成 像 (PET)、 单 光子 发 射 计算 机 断层 成 像 (SPECT)) 和 空间 分 辩 率 ( 相 
对 于 EEG)， 能 够 提供 极为 丰富 的 脑 功能 活动 及 脑 功能 网 络 的 静态 和 动态 特性 信息 ， 为 自 闭 
症 的 客观 诊断 提供 有 效 特征 。 Emerson 等 人 (2017) 基 于 59 例 6 月 龄 样本 的 静 ， 
据 ， 提 取 功 能 连接 特征 ， 以 样本 在 24 月 龄 是 否 被 诊断 为 自 闭 症 作为 标签 ， 月 


建 分 类 模型 ， 


取 较 儿童 及 成 人 样本 更 加 困难 , 以 及 研究 人 员 学 术 背 景 的 限制 ( 自 闭 症 的 智能 
神经 影像 学 以 及 计算 机 科学 三 个 学 科 领 域 人 员 的 通力 协作 )， 目 前 国际 上 针对 婴 幼 儿 的 自 闭 


AE BE IB OR 


究 尚 处 于 起 步 阶段 ， 具体 表现 在 : 第 


息 状 态 fMRI 数 


支持 向 量 机 构 


诊断 敏感 性 (sensitivity〉 为 81.8%， 特 异性 (specificity) FIA 100%. 


借助 脑 影像 数据 有 望 实现 针对 婴 幼 儿 的 自 闲 症 精准 诊断 ， 但 出 于 婴 幼 儿 样 本 数据 的 获 


诊断 需要 医学 、 


， 已 有 研究 主要 致力 于 从 正常 对 照样 


本 中 区 分 出 自 闭 症 , 还 没有 对 自 闭 症 进行 更 为 精细 的 分 级 和 分 型 研究 。 大 量 研究 表明 自 闭 症 


是 一 种 高 度 异 质 性 疾病 (Elsabbagh et al., 2013)， 在 对 婴 幼 儿 是 否 患 有 自 闭 症 1 
自 闭 症 严重 程度 的 判断 、 所 属 的 病理 亚 型 等 信息 , 将 大 大 有 助 于 为 患者 制定 


外 ， 如 果 能 提供 


影像 数据 ， 


表现 为 复杂 时 空 共 变 信 ， 


部 一 致 性 等 较为 简 身 


更 为 适宜 的 个 性 化 治疗 方案 。 第 二 ,多 数 研究 仅 提取 了 较为 粗略 的 脑 影 像 特征 ， 未 充分 发 气 
包含 


TH 


出 定性 判断 之 


的 有 效 信 息 。 人 脑 是 自然 界 最 为 复杂 的 系统 , 自 闭 症 患 者 的 脑 功能 异常 必然 


息 的 异常 。 目 前 针对 自 闭 症 诊 断 的 研究 都 还 是 基于 静态 功能 连接 、 局 
的 特征 开展 的 , 近期 研究 表明 自然 状态 fMRI 更 适 于 页 幼 儿 脑 功能 研究 


(Xie etal., 2021)， 而 脑 功能 网 络 的 动态 属性 能 提供 比 静 态 功能 连接 更 为 丰富 和 有 效 的 脑 功能 


性 能 优越 的 模型 比如 深度 学 习 技术 构建 算法 。 目 前 只 有 较 少 的 研究 采 / 


言 息 (Eslami et al.,2021)。 第 三 ， 当 前 研究 多 采用 经 典 的 机 器 学 习 算 法 ， 还 未 充分 利 ) 


新 兴 的 


深度 学 习 技术 来 建 


模 ， 例 如 ，Xu 等 人 (2020) 基 于 功能 性 近 红外 光谱 CENIRSO. 时 序数 据 构建 长 短期 记忆 模型 
(LSTMO 和 卷 积 神经 网 络 (CNN) 结合 的 深度 学 习 模 型 对 自 闭 症 儿童 和 上 典型 发 展 儿童 CF 
均 年 龄 约 9 岁 ) 进 行 分 类 预测 ,结果 表明 ,模型 表现 出 高 度 的 分 类 准确 性 ,敏感 性 (sensitivity) 
和 特异 性 (specificity) 分 别 为 97.1% 和 94.3%， 此 外 ， 准 确 率 相 比 原 有 模型 提升 8%， 证 明 
使 用 深度 学 习 模 型 能 够 有 效 提升 自 闭 症 患 儿 识别 的 准确 性 。 


3.5 基于 运动 控制 和 运动 模式 数据 的 自动 识别 


非典 型 的 运动 控制 和 运动 模式 也 是 自 闭 症 的 早期 特征 。Landa 等 人 (2006) 发 现 ， 自 闭 症 
患 儿 早 在 14 个 月 和 24 个 月 时 在 MSEL 测验 (Mullen Scale of Early Learning) 中 的 精细 动作 
和 粗大 动作 得 分 较 低 。 此 外 ,， 许 多 研究 报告 了 自 闭 症 患 儿 在 俯卧 、 仰 卧 、 怜 行 、 走 路 上 存在 
姿势 异常 、 动 作 不 协调 、 运动 控制 能 力 弱 的 现象 (Esposito et al., 2009; Teitelbaum et al., 1998) 。 
这 些 发 现 提供 了 基于 婴 幼 儿 时 期 的 非典 型 运动 模式 识别 和 预测 自 闭 症 的 支持 性 证 据 。 传 统 
方法 对 自 闭 症 患 儿 的 运动 功能 的 评价 通常 基于 父母 报告 和 专家 现场 观察 ， 编 码 方法 和 评价 
标准 通常 针对 某 个 具体 的 研究 场景 ， 缺 乏 效 度 验证 (Ozonoff et al., 2008)。 现 有 研究 大 多 基于 
自 闭 症 儿童 的 运动 视频 构建 自 闭 症 早期 运动 控制 和 运动 模式 的 自动 检测 方法 ,例如 , Dawson 
等 人 (2018) 基 于 视频 的 面部 自动 化 检测 技术 评估 自 闭 症 幼儿 与 典型 发 展 幼儿 在 自发 性 注意 
状态 下 的 头 部 姿势 控制 能 力 。 研 究 者 在 实验 室 采集 了 106 名 16-31 月 龄 的 自 闭 症 幼儿 和 典型 
发 展 幼儿 观看 动态 泡 泡 、 机 械 兔子 等 视频 时 的 面部 动态 影像 ， 通 过 识别 、 追 踪 、 计 算 相 邻 视 
c 频 帧 中 既定 面部 标记 点 的 坐标 位 移 对 头 部 运动 进行 量化 。 结果 表明 , 自 闭 症 幼儿 的 头 部 运动 

速率 显著 高 于 典型 发 展 群体 ， 即 自 闭 症 幼儿 在 注意 状态 下 难以 保持 头 部 的 中 线 位 置 。Martin 
等 人 (2018) 采 用 相同 实验 范式 采集 了 2.5-6.5 岁 儿 童 观看 社交 和 非 社交 刺激 视频 时 的 上 半身 
视频 录像 , 不 同 于 计算 面部 标记 点 位 移 的 方法 , 该 研究 使 用 Zface Chttp://zface.org/) 算法 (Jeni 
et al., 2015)， 该 算法 被 证 明 有 高 计算 效率 和 精度 (Jeni & Cohn, 2016)， 可 逐个 对 2D 视频 帧 实 
时 形成 高 密度 的 3D 面部 形状 ， 进 行 三 维 尺度 上 的 头 部 运动 追踪 ，x、y、z 轴 分 别 对 应 头 部 
俯仰 pitchb)、 偏 航 (yaw)、 侧 倾 (rolD) 。 通 过 计算 连续 视频 序列 各 坐标 轴 的 角 位 移 和 角速度 来 量 
化 头 部 运动 强度 , 研究 发 现 自 闭 症 儿 童 在 观看 社交 刺激 时 , 头 部 运动 水 平和 移 速 均 高 于 典型 
发 展 儿童 ， 疑 似 自 闲 症 儿童 通过 头 部 运动 调节 对 社交 刺激 的 感知 。 


许多 研究 还 尝试 基于 视频 序列 中 的 运动 特征 建立 自 闭 症 儿童 的 自动 识别 模型 Zunino 等 
人 (2018) 关 注 自 闭 症 儿童 (平均 年 龄 约 9.8 岁 ) 的 抓 握 行为 ， 分 析 对 象 包含 儿童 抓 握 、 放 置 、 传 


O 


递 水 瓶 的 视频 动作 序列 数据 集 ， 平 均 长 度 83 帧 。 研 究 者 使 用 卷 积 神经 网 络 (CNN) 和 长 短期 


记忆 网 络 (Long short-Term Memory, LSTM) 构 建 自 闭 
为 影像 是 否 为 自 闭 症 个 体 ， 同 时 基于 LSTM 的 隐藏 
偷 出 可 视 化 的 注意 力 地 图 (normalized attention map), 
的 、 提 供 重 要 判别 线索 的 位 置 ， 具备 可 解释 性 ,为 


ES 


证 分 类 模型 ， 不 仅 能 判断 视频 帧 中 的 行 
层 的 时 空 表征 信息 和 内 部 门 机 制 ， 还 
即 在 图 像 帧 上 表示 出 对 自 闭 症 分 类 有 作 
临床 工作 者 进一步 提供 支持 性 的 辅助 信 


i. Vyas 等 人 (2019) 使 用 自 闭 症 远程 诊断 服务 NODA 项 目 (https:Wbehaviorimaging.com/) 的 数 


th, 包含 家 长 记录 的 儿童 日 第 活动 视频 555 个 , 均 已 由 专家 标记 出 自 闭 症 诊断 结果 。 在 运动 


序列 特征 的 表征 方面 ， 采 用 预 训练 的 2D Mask R-CNN 深度 学 习 网 络 (Girdhar et al., 2018) 识 


别 图 像 帧 的 15 个 人 体 部 位 关键 点 执行 姿态 估计 ， 并 
失 的 关键 点 进行 插 补 (Arulampalam et al., 2002); 使 月 
征 为 身体 关键 点 随时 间 变 化 的 RGB 热 图 (Choutas et 


应 用 粒子 滤波 器 (Particle filter) 对 判断 缺 


H Pose Motion (PoTion Representation) 表 


al., 2018)， 并 输入 最 终 的 CNN 分 类 器 


中 。 结 果 显 示 ， 分 类 的 准确 率 (accuracy)、 精 确 率 (precisiom) 和 召回 率 (recalD) 分 别 是 72.496. 
72% 和 92% 。 该 研究 通过 关键 点 轨迹 刻画 身体 姿势 的 变化 ,使 用 具有 解释 性 的 浅 层 行为 信息 
且 模 型 可 输出 身体 关键 点 变化 热 图 ， 帮 助 研 究 者 直观 理解 自 闭 症 儿童 的 运动 特点 。 


随 着 硬件 设备 技术 的 快速 发 展 , 惯性 运动 传感器 、 陀 螺 仪 和 磁力 计 已 经 被 集成 到 智能 手 
机 、 平 板 电脑 和 智能 穿戴 设备 中 ， 用 于 采集 个 体 的 运动 数据 。Anzulewicz 等 人 (2016) 探 索 了 
严肃 游戏 场景 下 检测 自 闭 症 及 其 运动 模式 的 方法 。 研 究 招 募 了 37 名 3~6 岁 的 自 闭 症 儿童 和 


TH 


45 名 典型 发 展 儿 童 ， 儿 童 手动 操作 


平板 游戏 过 程 中 ， 
(三 轴 加 速度 计 、 陀 螺 仪 、 磁 力 计 ) 记 录 手 部 运动 数据 。 研 究 者 基于 原始 传感器 数据 获得 的 共 
262 个 特征 构建 多 种 机 器 学 习 自 闭 症 分 类 模型 ， 十 折 交 叉 验 证 的 结果 显示 ， 正 则 化 贪心 森林 


通过 设备 的 触摸 屏 和 内 置 惯性 传感器 


算法 CRegularized Greedy Forest, RGF) 达到 最 佳 分 类 效果 ， 敏 感性 (sensitivity〉 和 特异 性 


(specificity) 为 83% 和 和 85%。 此外， 研究 发 现 自 闭 


症 儿 童 在 玩 游戏 时 的 手 部 撞击 力 、 手 势 


压力 、 用 力 的 分 配 、 屏 幕 点 击 速率 等 与 典型 发 展 儿 站 


目前 针对 自 闭 症 的 多 种 非典 型 运动 模式 的 自动 检测 研究 已 有 较 大 进展 ， 从 涉及 粗大 的 


姿态 、 肢 体 动 作 到 精细 化 的 头 部 、 手 部 动作 , 包括: 映 体 运动 的 整体 姿态 变化 、 手 部 运动 ( 抓 


握 、 放 置 、 传 递 物品 )、 注 意 状 态 下 的 头 部 运动 ( 头 部 运动 速率 、 平 衡 性 ) 等 。 人 体 运 动 数据 的 


采集 对 硬件 设备 具有 较 高 要 求 , 随 着 智能 传感器 技术 的 不 断 发 展 , 研究 者 可 采用 智能 穿戴 设 
备 和 体感 设备 采集 并 记录 个 体 的 运动 数据 ， 对 低龄 幼儿 和 儿童 的 非典 型 动作 进行 自动 化 识 


别 ， 以 此 对 自 闭 症 早期 运动 发 展 规律 进行 深入 研究 。 


3.6 基于 多 模 态 数据 的 自动 识别 


自 闭 症 儿童 的 心理 、 生理 和 认 知 状态 可 同时 通过 面部 表情 、 身体 姿态 、 眼 睛 注视 、 语 音 、 
文字 以 及 生理 信号 等 多 种 维度 信息 进行 反映 。 并 且 , 由 于 实际 测量 环境 的 异 质 性 和 临床 样本 
的 稀缺 性 ， 单 模 态 数据 往往 无 法 携带 足够 的 信息 用 于 识别 (Chen & Zhao,2019)。 目 前 ， 自 动 
化 识别 的 趋势 是 采用 多 模 态 数据 融合 的 研究 思路 ， 对 多 种 模 态 数据 的 相关 特性 或 中 间 决 策 
进行 融合 分 析 ， 获 得 更 有 价值 的 数据 或 高 层 信 息 以 提高 预测 的 准确 性 (Poria et al., 2017)， 人 性 


能 优 于 单 模 态 建 模 (de Belen et al., 2020). 例如 ，Chen 和 Zhao(2019) 分 别 采用 拍摄 任务 (Photo- 


Taking task) 和 图 像 观 察 任 务 (Image-Viewing task), 基于 自 闭 症 患 者 异常 的 注意 偏好 建立 自 闭 
症 自动 化 识别 模型 。 在 建 模 阶 段 , 研究 者 借鉴 跨 模 态 检 索 (cross-modalretrieval) 思 想 , 将 两 种 
任务 的 模 态 数据 ( 眼 动 ， 图 像 ) 融 合 ， 建 立 共同 的 预测 模型 实现 多 模 态 信息 的 特征 表征 和 信息 
互补 。 结果 表明 , 在 两 种 任务 上 ,多 模 态 信息 建 模 方法 的 预测 性 能 相 较 于 传统 单 模 态 建 模 均 
有 提升 ， 拍 摄 任务 的 预测 正确 率 从 76% 提 高 至 84%， 图 像 观 察 任务 的 正确 率 从 97% 提 高 
99%。 雇 梦 怡 等 人 (2021) 构 建 了 融合 多 模 态 数据 的 3-6 岁 自 闭 症 儿童 智能 化 识别 方法 。 研 究 
者 使 用 眼 动 数据 、 面 部 表情 数据 、 认 知 得 分 数据 以 及 认 知 反应 时 数据 ,利用 数据 差异 性 分 析 
进行 特征 选择 , 根据 数据 来 源 和 时 间 同 步 性 将 数据 进行 分 层 融 合 。 结 果 表 明 , 与 单 模 态 识别 
方法 相 比 ， 多 模 态 建 模 方法 与 基于 《 自 闭 症 行为 评定 量 表 》(Autism Behavior Checklist) 的 评 
估 结 果 达 到 最 高 一 致 性 。 


另 有 研究 基于 自 闭 症 儿童 与 社交 机 器 人 交互 过 程 中 产生 的 多 模 态 行为 特征 进行 自 闭 症 
自动 化 诊断 和 干预 效果 评估 。 例如 , Scassellati (2007) 界 定 了 人 机 交互 数据 中 反映 个 体 社交 技 
能 的 行为 指标 , 以 标准 化 的 测量 方式 提升 人 工 记录 和 评估 的 信和 度 。 具体 包 括 三 方面 的 行为 指 
bs: (1) 凝视 方向 和 注意 焦点 ; (2) 个 体 与 他 人 的 距离 和 位 置 追 踪 ;，(3) “MARE 
律 和 语调 。 此 外 ,研究 者 基于 多 模 态 数据 中 表征 社交 互动 的 行为 指标 ， 如 面部 朝向 、 相 对 位 
置 、 物 理 距 离 等 行为 数据 ， 评 价 自 闭 症 儿童 (平均 年 龄 3.4 岁 ) 与 社交 机 器 人 互动 的 积极 性 和 
参与 度 (Feil-Seifer & Mataric, 2010; Moghadas & Moradi, 2018)。 另 外 ， 目 前 有 监测 并 提供 自 
闭 症 患 者 社交 技能 服务 的 网 络 平台 ， 通 过 非 侵入 式 传感器 和 可 穿戴 设备 采集 患者 与 他 人 的 
多 模 态 日 常 互动 行为 数据 ， 如 个 体 与 交谈 者 的 物理 距离 、 姿 势 、 上 半身 运动 、 面 部 微 表情 等 
社会 计量 器 (sociometer) 的 行为 指标 ， 实 时 传输 至 Microsoft Azure 云 计算 平台 存储 、 分 析 和 
完成 行为 标注 ， 产 生 可 视 化 的 数据 分 析 报 告 并 发 送 给 治疗 师 ， 可 有 针对 性 地 设计 干预 方案 


(Winoto et al., 2016)。 


目前 已 积累 较 多 公开 的 、 可 供 研 究 者 训练 和 微调 模型 的 自 闭 症 幼儿 多 模 态 数据 集 。 例 如 ， 


研究 自 闭 症 婴 幼儿 社交 和 沟通 行为 的 多 模 态 二 元 行为 数据 集 (Multimodal Dyadic Behavior, 


MMDB)， 包 括 160 余 组 、 平 均 3-5 分 钟 的 121 名 婴 幼 儿 (15~30 月 龄 ) 与 成 年 主 试 的 半 结 构 
化 互动 片段 。 数据 集 已 有 行为 评价 框架 和 人 工 标定 , 即 依照 自 闭 症 编码 手册 和 评分 细则 对 互 
动 过 程 中 的 关键 行为 进行 编码 评分 ， 如 婴儿 的 注意 力 和 眼神 接触 、 社 会 性 微笑 、 发 声 和 言语 
表达 (如 ， 字 、 词 组 )、 沟 通 姿 势 ( 如 ， 指 向 、 挥 手 、 鼓 掌 ) 等 (Rehg etal., 2013)。 此 外 ， 还 有 用 
于 辅助 自 闭 症 儿童 干预 治疗 的 多 模 态 数据 集 , 例如 DE-ENIGMA 大 型 公开 数据 集 , 包含 128 
名 自 闭 症 患 儿 与 治疗 师 、 治 疗 机 器 人 的 长 时 段 互动 视频 (13TB)， 其 中 专家 对 50 名 患 儿 的 数 
据 标注 了 情绪 效 价 、 情 绪 唤 醒 、 身 体 姿 势 等 特征 ， 可 用 于 训练 人 工 智能 模型 进行 自动 识别 。 


- 目前 , 大 多 数 研 究 主要 基于 独立 收集 的 临床 数据 构建 检测 模型 ， 而 针对 于 同一 任务 下 的 
K 同类 方法 或 模型 未 能 得 到 比较 ,研究 成 果 间 成 孤立 之 势 , 因而 需要 借助 公开 数据 集 作为 模型 
S 性 能 评价 的 “基准 ”。 同 时 ， 越 来 越 多 的 自 闭 症 公开 数据 集 提供 了 推进 机 器 学 习 和 深度 学 习 
S 发 展 所 需 的 数据 规模 , 研究 者 可 使 用 公开 数据 集 预 训练 模型 , 或 使 用 不 同 模 态 的 数据 提升 模 
= 型 性 能 ， 增 强 检 测 方法 的 泛 化 性 。 

N 

= 4. 小 结 和 研究 展望 


我 国人 口 基 数 大 , 锥 患 自 闭 症 的 患者 数量 多 ， 自 闭 症 的 诊断 过 程 耗 时 ， 且 费用 高 ， 需 要 


, 长 周期 的 特殊 教育 训练 和 行为 干预 。 自 闭 症 在 幼儿 期 越 早 发 现 ， 越 时 干预 ， 康 复 效果 越 好 ， 
= 治愈 率 越 高 。 在 3 岁 内 开始 治疗 是 最 佳 时 机 ， 随 着 年 龄 增长 ， 治 疗 难度 增 大 。 然 而 ， 目 前 我 
© 国 自 闭 症 第 查 与 诊断 处 于 “三 缺 ”状态 ， 即 缺乏 诊断 标准 、 专 业 人 员 、 康 复 路 径 ， 自 闭 症 康 


复 干 预 系统 也 不 健全 、 整 体 水 平 偏 低 , 治疗 效果 有 限 。 自 闭 症 的 诊断 主要 依据 医生 的 经 验 积 
A, 缺乏 便捷 和 客观 有 效 的 诊断 工具 ,导致 从 父母 发 现 儿童 异常 再 到 确诊 需要 漫长 的 等 待 时 
间 ， 因 而 很 多 患 儿 会 错过 最 佳 干预 期 。 此 外 ， 受 限于 诊断 滞后 ， 以 及 婴 幼 儿 的 行为 语言 能 力 
尚 待 发 育 造成 的 干预 困难 , 现 有 的 干预 方法 的 适用 对 象 大 多 是 3 岁 以 上 的 儿童 和 青少年 , H. 
每 种 干预 方法 的 疗效 并 不 明确 , 每 种 疗法 下 的 干预 手段 比较 单一 , 这 也 是 制约 患 儿 有 效 康复 
的 主要 原因 。 


因此 ， 目 前 有 必要 革新 现 有 的 诊断 流程 和 康复 路 线 ， 完 善 智 能 辅助 的 自 闭 症 早 期 得 查 、 
诊断 和 治疗 体系 ,缓解 执 行 的 时 间 压 力 和 压缩 人 力 成 本 。 特 别 是 对 患者 家 庭 ， 越 早 发 现 和 干 
预 ， 其 预后 效果 越 好 ， 能 够 促进 自 闭 症 患者 的 发 展 进程 、 改 善 其 语言 、 减 少 问题 行为 ( 陈 顺 
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年 来 ， 计 算 机 视觉 、 语 音 技术 、 智 能 穿戴 设备 、 脑 成 像 等 技术 能 够 实现 多 种 行为 数据 的 采集 
和 监测 ， 方 便 研究 者 获取 多 模 态 、 不 同 场景 和 多 种 行为 维度 的 患者 数据 。 尤其 基于 自 闭 症 串 


儿 在 自然 场景 下 与 抚养 人 互动 


映 行为 特征 与 症状 间 的 关系 ， 


BALA AEN EAC I. BBVA AD, AICHE 


未 来 研究 方向 如 下 所 述 。 


4.1 缺乏 针对 婴 幼 儿 的 有 效 的 筛 查 工 具 


目前 ， 针 对 自 闭 症 的 早期 筛 查 与 诊断 取得 了 很 多 进展 ， 一 些 测 量 工具 得 到 广泛 认可 , 但 


的 视 音频 数据 建 模 , 相 比 传统 方法 ,能够 更 加 真实 、 全面 地 反 
和 捉 肉 眼 无 法 观察 到 的 细微 表情 或 肢体 动作 的 变化 。 围 绕 建立 
出 当前 主要 存在 的 两 点 问题 ， 


同时 自 闭 症 的 早期 得 查 与 诊断 也 存在 诸多 不 足 之 处 , 包括 早期 得 查 难 和 普及 难 、 检 测评 估 不 
精准 等 。 具 体 表现 在 以 下 三 个 方面 。 


二 <. 


闭 症 的 早期 识别 更 精准 , 清晰 


第 一 , 缺乏 精细 化 的 婴 幼 儿 自 闭 症 早期 行为 诊断 体系 。 
范围 跨度 较 大 , 一 般 至 少 为 6 个 月 ， 且 评估 项 目 对 不 同 发 展 阶段 的 幼儿 并 不 完全 一 致 ， 各 有 
侧重 点 。 自 闭 症 的 评估 需要 根据 幼儿 能 力 发 展 的 先后 顺序 ， 
个 体 在 幼儿 期 发 展 迅速 , 即使 是 3 个 月 内 就 能 呈现 较 大 差异 , OR) 
的 婴 幼 儿 进 行 测评 ， 在 测评 内 容 、 标 准 单一 的 情况 下 ， 评 估 的 准确 
工具 的 敏感 性 和 特异 性 对 于 不 同年 龄 跨度 不 稳定 的 问题 (Nah et ab, 2019)。 为 了 使 婴 幼 儿 自 


自 闭 症 早期 评估 工具 的 年 龄 使 用 


LEA 


环境 特点 设计 测评 项 目 。 但 


H H 


述 自 闭 症 早期 患 儿 的 行为 特 和 


EE 要。 研究 通 


E 和 发 展 规律 至 关 习 


常 以 3 月 龄 为 间隔 对 自 闭 症 婴 幼 儿 的 早期 特征 进 


同一 工具 对 6 个 月 跨度 
性 很 难保 证 ， 即 存在 测评 


行 追 趴 和 比较 (Kaur et al., 2018)， 但 涉及 到 


的 年 龄 跨度 并 不 完整 地 涵盖 自 闭 症 早期 识别 的 关键 时 期 ( 即 6-36 个 月 )， 同 时 追踪 时 间 较 长 


的 研究 则 往往 追踪 间隔 也 较 大 (如 6 个 月 或 12 个 
注 自 闭 症 的 少数 典型 行为 ,如 物品 分 享 、 社 会 习惯 微笑 等 ， 并 不 全 
有 典型 表现 。 因此 , 当前 国内 外 仍 缺 乏 对 自 闭 症 婴 幼儿 在 研究 时 间 和 内 容 两 个 维度 上 更 乡 
且 系 统 的 研究 ， 缺 乏 具 有 针对 性 的 自 朵 症 早 期 患 儿 的 识别 体系 。 


多 ， 大 多 数 测评 工具 可 分 为 神 


面 维度 。 根 据 其 年 龄 适用 性 , 各 量 表 关 注 的 侧 


第 二 , 缺乏 考察 自 闭 症 早期 患 儿 情 绪 、 情 感 能 力 的 测评 项 目 。 自 闭 症 早期 评估 的 工 
[会 交往 与 互动 、 语 言及 认 知 发 展 、 重 复 性 刻板 行为 /兴趣 三 方 
点 存在 差异 ,一些 量 表 


时 ， 不 同 的 研究 往 
Rr e BL AERA LAS 


月 ) 且 不 均匀 。 


EDUX 


| 化 


S 


只 侧重 部 分 核心 症状 ， 


如 CHAT 量 表 关注 共同 注意 和 假想 游戏 能 力 ， 仅 涉及 社会 互动 方面 ( 尤 娜 ， 杨 广 学 , 2006). 


作为 诊断 “ 金 标 准 ” 的 ADOS 能 较为 全 面 地 观察 到 自 闭 症 患 儿 的 表现 ， 但 其 诊断 标准 中 仍然 
缺少 对 患 儿 情绪 情感 能 力 发 展 的 评估 指标 。 重要 的 是 , 自 闭 症 婴 幼儿 往往 具有 情绪 和 情感 发 
展 障碍 ,在 情感 淡漠 、 情 绪 理 解 和 表达 上 存在 困难 等 特征 , 这些 特征 通常 被 认为 是 社交 障碍 
的 典型 表现 。 但 是 ， 目 前 对 自 闭 症 婴 幼 儿 社交 能 力 的 观察 只 聚焦 在 “是 否 出 现 互 动 ”的 行为 
层面 上 ， 并 没有 重点 突出 情绪 和 情感 发 展 的 指标 (de Bildt et al., 2015)。 和 情绪 情感 发 展 是 婴 幼 
儿 社 会 性 发 展 的 基础 , 认识 到 自 闭 症 早期 患 儿 在 情绪 情感 发 展 上 的 特征 具有 重要 意义 , 可 以 
有 针对 性 地 提供 干预 措施 或 干预 效果 评估 指标 ， 有 助 于 探索 帮助 自 闭 症 婴 幼儿 全 面 发 展 的 
稳健 路 径 。 


第 三 ,缺乏 现 有 筛 查 和 诊断 方式 的 创新 和 有 机 整合 。 自 闭 症 的 诊断 方法 主要 是 医师 进行 


= 病史 分 析 、 症 状 查 询 、 机 幼儿 行为 观察 和 量 表 测评 ， 同 时 结合 少量 CT/ 核 磁 等 神经 影像 检查 
Ca 和 遗传 学 染色 体 分 型 检查 、 代 谢 病 第 查 等 畏 助 检查 。 诊 断 方式 缺乏 细致 和 统一 的 标准 ， 而 且 
S 常用 方式 和 工具 又 存在 一 定 的 局 限 性 。 例如 , RAF HU JL EE ANIE AAE 
o 儿童 的 互动 参与 ， 易 受到 养育 人 主观 因素 影响 ， 不 能 客观 反映 婴 幼儿 的 能 力 水 平 ,养育 者 对 
= TORO AT SAR, i 0L 71 Johnson & Myers, 2007): 
A 同时 ， 依 赖 于 现场 观察 的 测评 程序 十 分 复杂 ,上 必须 让 拥有 专业 资格 的 医师 进行 观察 才能 得 
e 到 结果 (Matson et al., 2011; Romero-Garcia et al., 2019)。 国 际 上 以 ADOS 诊断 为 金 标准 ， 但 是 


W ué 


国内 接受 过 ADOS 评价 的 专业 人 员 却 极度 匮乏 ， 临 床 医生 通过 观察 得 出 的 结论 具有 一 定 的 


© EWE, FECES IG P 26 7 NV I| Romero-Garcia et al., 2019)， 医 生 与 儿童 在 一 起 
= 的 时 间 很 短暂 ， 难 以 全 面 评价 婴 幼 儿 在 不 同情 境 中 的 表现 , 注意 到 婴 幼 儿 多 方面 的 异常 行为 
o (Fitzgerald, 2017; Zabihi et al., 2020)。 有 研究 表明 完整 的 诊断 过 程 会 花费 相当 长 的 时 间 ( 平 均 


41 个 月 ) 和 较 高 的 费用 ， 而 且 量 表 的 评分 较为 粗略 (Hyman etal., 2020)， 不 仅 不 利于 尽早 地 对 
患 儿 进行 诊断 ， 还 可 能 会 由 于 标准 不 统一 而 造成 误 判 。 


综 上 ， 传 统 第 查 与 诊断 方式 受到 时 间 、 人 力 和 婴 幼 儿 发 计 阶 段 的 特殊 性 等 因素 的 限制 ， 
不 仅 有 必要 对 已 有 的 诊断 工具 和 医生 专业 诊断 标准 进行 更 细致 的 研究 和 补充 ， 较 为 全 面 地 
构建 自 半 症 患 儿 的 行为 特征 体系 , 以 提供 对 不 同年 龄 段 的 婴 幼儿 自 闭 症 的 精确 识别 标准 ; 此 
外 ， 开 发 一 种 能 够 辅助 或 者 代替 医生 在 家 庭 或 者 社区 医院 进行 快速 得 查 并 能 够 有 效 减 少 主 
观 误差 的 智能 工具 ， 将 有 非常 重要 的 临床 价值 。 


4.2 缺乏 融合 多 模 态 数据 的 智能 化 识别 研究 


目前 , 自 闭 症 智能 化 识别 的 主要 对 象 群体 是 3 岁 以 上 的 自 闭 症 儿童 和 成 年 人 。 研究 者 相 


较 于 实验 室 数 据 , 较 少 使 用 临床 诊断 和 自然 状态 下 采集 的 行为 数据 。 


六 个 研究 子 领域 内 需 解决 的 难题 存在 一 定 差异 , 例如 , 在 基于 自 闭 症 


在 自 闭 症 智能 化 识别 的 


用 部 表情 和 情绪 数据 的 


识别 方面 ， 当 前 已 能 够 实现 基于 深度 学 习 方 法 (例如 ，CNN，DCNN) 对 自 闭 症 患 者 的 照片 或 


视频 帧 进行 情绪 分 类 (Li et al., 2019; Shukla et al., 2017)。 然 而 ， 多 数 情绪 分 类 器 的 开发 仅 涉 


及 自 闭 症 成 年 群体 ， 对 自 闭 症 婴 幼儿 的 泛 化 性 较 差 Kalantarian et al., 2019); 其 次 ， 仅 能 实现 
BB 


Xp Rr HSE AS SET EERI, DURS DES THAR), ZX 


异常 等 级 的 评估 研究 (Guha et al., 2016)。 在 基于 眼 动 数据 的 识别 方面 


患者 情绪 复杂 性 或 情绪 


， 临 床 和 实证 研究 已 累 


积 丰 富 的 自 闭 症 幼儿 与 正常 幼儿 的 眼 动 模式 差异 证 据 ， 同 时 领域 内 已 提出 有 效 的 特征 提取 
方法 、 预 测 框架 和 评分 框架 (Liu et al., 2016; Liu et al., 2015)。 然 而 ， 多 数 眼 动 数 据 是 在 高 度 
受 控 的 实验 室 环境 中 借助 专业 仪器 获得 , 并 要 求 被 试 持续 注视 屏幕 ， 


ÍT, 也 很 难 评估 幼儿 与 抚养 者 在 


据 的 识别 方面 , 目前 实现 了 较为 简单 的 经 典 任务 中 国定 身体 部 位 和 


难以 在 大 规模 得 查 中 施 


自然 社交 互动 中 的 眼神 接触 。 在 基于 运动 控制 和 运动 模式 数 
胶体 动作 的 识别 ,如 婴 幼 


儿 自 闭 症 诊 断 中 的 “ 叫 名 反应 ”的 头 部 运动 (Dawson et al., 2018) 和 抓 握 动作 (Martin et al., 2018) 


等 ,还 未 涉及 自 闭 症 幼儿 在 复杂 任务 ! 


大 多 基于 单 模 态 数据 进行 自 闭 症 患者 的 智能 化 识别 ， 尚 未 充分 利用 


S 
Jy o 


探索 不 同 模 态 信息 


闭 症 患 儿 自 动 甄别 模型 ,有望 实 现 


当前 ， 自 闭 症 智 能 化 识别 的 主要 趋势 是 尽 可 能 获取 丰富 的 自 闭 ; 
融合 多 种 形态 的 数据 及 患者 不 同 的 行为 维度 (如 , 眼 动 、 语 音 、 层 动 、 


间 的 互补 性 关系 、 特征 转化 与 表征 模式 , 采用 多 模 态 数据 融合 思想 构建 自 


的 胶体 动作 和 身体 部 位 的 姿态 识别 。 然 而 ， 已 有 研究 


自 闭 症 患 者 的 多 模 态 信 


a 


庄 婴 幼儿 的 多 模 态 数据 ， 
芷 部 表情 和 胶体 动作 )， 


上 已 经 开展 了 大 量 基 于 多 模 态 数据 的 针对 其 它 精神 


的 智能 诊断 研究 , 多 项 研究 表明 利 月 
究 从 建 模 数据 来 看 , 主要 以 6 岁 以 上 的 自 闭 症 患 儿 为 主 , 对 低龄 自 
且 ， 当 前 研究 者 能 够 获取 和 使 用 的 自 


Sr 


依然 是 研究 缺口 。 


自 亲 症 婴 幼 儿 筛 查 方法 上 的 革新 和 诊断 精度 的 突破 。 国 际 


自 人 为 控制 的 实验 环境 、 公 
或 治疗 康复 情境 ， 


能 否 有 效 地 应 


于 数据 集 、 网 络 视频 资源 等 ， 且 行为 数据 


疾病 (比如 阿尔 茨 海 默 病 、 精 神 分 裂 症 ) 


日 多 模 态 数据 能 得 到 较 单 模 态 数据 更 高 的 诊断 精度 。 这 类 


闭 症 患 儿 的 自动 化 识别 


AVES ILS Rasa BBD, 主要 来 


大 多 来 自 单一 任务 1 
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[未知 。 此 外 ,许多 模型 
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识别 的 自 闭 症 婴 幼 儿 行为 标签 较为 粗略 和 简单 ， 如 基于 自 闭 症 观察 量 表 的 简单 行为 标记 或 
简单 的 基本 情绪 分 类 ， 难 以 在 临床 诊断 中 发 挥 重 要 作用 。 


智能 化 识别 自 闭 症 的 基础 是 构建 多 模 态 数据 集 ， 没 有 数据 也 就 不 存在 发 展 高 精度 算法 
的 可 能 。 如何 高 效率 且 便 捷 的 获取 患 儿 的 多 模 态 信息 、 减少 噪音 并 进行 有 效 识 别 是 未 来 研究 
的 重点 。 目 前 , 国外 有 较 多 情境 来 源 的 、 包 含 行为 标记 的 、 可 供 研 究 者 使 用 的 自 闭 症 患者 公 
开 数 据 集 , 尽管 还 存在 着 上 述 的 缺乏 婴 幼 儿 数 据 、 数 据 类 型 较为 单一 和 行为 标签 粗略 等 问题 ， 
但 仍然 为 自 闭 症 识别 算法 的 快速 更 新 起 到 了 重要 的 作用 。 我 国 钥 上 患 自 闭 症 的 幼儿 数量 庞大 
且 逐 年 递增 ， 但 自 闭 症 患 儿 病例 数据 分 散 。 要 构建 智能 辅助 的 自 闭 症 早期 筛 查 、 诊 断 系统 ， 
首先 应 厘清 自 闭 症 早期 诊断 标准 , 构建 我 国 自 闭 症 婴 幼儿 异常 行为 指标 评估 体系 , 从 多 方 获 
取 自 闭 症 患 儿 的 多 模 态 数据 并 进行 粗细 颗粒 度 的 异常 行为 标记 。 组 建 大 规模 自 闭 症 及 高 危 
婴 幼 儿 数据 库 和 行为 特征 库 是 我 国 开 展 高 质量 的 智能 化 识别 研究 的 必要 条 件 。 在 当前 大 规 
模 数 据 集 尚 未 建成 的 时 期 ， 面 对 模型 训练 数据 需求 量 大 与 自 闭 症 患 儿 样本 匮乏 之 间 的 矛盾 ， 
研究 者 可 先 尝试 运用 深度 学 习 领 域 的 小 样本 学 习 Cfew-shot learning) , ， 如 模型 微调 〈fine- 
tuning) 、 数 据 增强 (data augmentation) 、 迁 移 学 习 〈transfer learning) 等 方法 解决 小 样本 


环境 下 的 患 儿 识别 模型 的 建 模 和 优化 问题 。 


ARR 
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Abstract: Symptoms of Autistic Spectrum Disorders (ASD) manifest as early as infancy, and the 
earlier detection and intervention can lead to better therapeutic results. The traditional tools of early 
screening and diagnosis of autism have limitations in evaluation methods and procedures, which 
cannot meet the needs of large-scale screening and diagnosis. With the rapid artificial intelligence 
technological advancement, using an intelligent approach for large-scale non-inductive early 
screening and diagnosis of autism has become possible. In the past decade, a myriad of research 
findings on intelligent detection technology of autism were generated domestically and 
internationally in six aspects: behaviors in classic tasks, facial expressions and emotions, eye gaze 
data, brain imaging, motor control and movement patterns, and multimodal data. Future research 
should focus on constructing a domestic intelligent medical screening and diagnosis system for early 
autism, developing screening tools for infants and young children, constructing an automated 
recognition model for autistic infants by integrating multimodal data, establishing a refined autism 


diagnosis method combined with brain imaging technology, and other aspects. 
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